• Chapter 8 —— Linear Regression Models

    前面我们已经看到了最小二乘法(OLS)可用于估计自回归模型参数,本章我们介绍线性回归(Linear Regression)的性质。

    8.1 Review of Ordinary Least Squares with Deterministic Regressors and i.i.d. Gaussian Disturbances

    单变量 yt(k×1) 维解释向量 xt 以及扰动项(disturbance term)ut 的线性关系为

    (8.1.1)yt=xtβ+ut.

    本节的假设为 xt 为确定性变量,ut 服从独立同分布的高斯分布。

    The Algebra of Linear Regression

    对于观测值 (y1,y2,,yT)β 的最小二乘估计为记为 b ,目标为使得残差平方和(residual sum of squares, RSS)最小:

    (8.1.2)RSSt=1T(ytxtβ)2.

    在矩阵 t=1T(xtxt) 非奇异的条件下,OLS 估计为

    (8.1.3)b=[t=1T(xtxt)]1[t=1T(xtyt)],

    t 个观测值样本的 OLS 残差为

    (8.1.4)u^tytxtb.

    式 [8.1.1] 经常被写为矩阵形式:

    (8.1.5)y=Xβ+u,

    其中(这里的下表表示矩阵的大小)

    y(T×1)[y1y2yT]x(T×k)[x1x2xT]u(T×1)[u1u2uT].

    那么此时 OLS 估计可以被写为

    (8.1.6)b={[x1x2xT][x1x2xT]}1{[x1x2xT][y1y2yT]}=(XX)1Xy.

    类似的,OLS 样本残差向量 [8.1.4] 可以写为

    u^=yXb=yX(XX)1Xy(8.1.7)=[ITX(XX)1X]y=MXy,

    其中 MX 定义为如下 (T×T) 矩阵:

    (8.1.8)MXITX(XX)1X.

    可以验证 MX 具有以下性质:

    1. 对称性(symmetric)

    MX=MX,
    1. 幂等性(idempotent)

    MXMX=MX,
    1. X 的列正交

    (8.1.9)MXX=0.

    因此,由式 [8.1.7] 可知,OLS 样本残差与 X 中的解释变量正交:

    (8.1.10)u^X=yMXX=0.

    需要区分 OLS 样本残差 (u^t) 与总体残差 (ut) 。样本残差由样本估计量 b 构造得到(u^t=ytxtb),而总体残差是基于真实总体参数 β 的假设构造(ut=ytxtβ)。将式 (8.1.5) 代入式 (8.1.7) 可得样本残差与总体残差的关系:

    (8.1.11)u^=MX(Xβ+u)=MXu.

    将式 [8.1.5] 代入式 [8.1.6] 可得 OLS 估计量 b 与真实总体参数 β 的差异:

    (8.1.12)b=(XX)1X[Xβ+u]=β+(XX)1Xu.

    OLS 回归的拟合优度有时用样本多重相关系数(sample multiple correlation coefficient),即 R2 来描述。未中心化的 R2(记为 Ru2)定义为回归拟合值 (xtb) 的平方和占 y 的平方和的比例,即

    (8.1.13)Ru2t=1T(bxtxtb)t=1Tyt2=bXXbyy=yX(XX)1Xyyy.

    如果回归中唯一的解释变量是常数项(xt=1),那么每个观测值的拟合值就是样本均值 y¯,拟合值的平方和为 Ty¯2。为了消除常数项对于拟合优度的干扰,对于中心化 Ru2 的分子分母同时减去 Ty¯2 。中心化的 R2(记为 Rc2)定义为

    (8.1.14)Rc2yX(XX)1XyTy¯2yyTy¯2.

    大多数回归软件包报告的是中心化的 R2 而非未中心化的 R2。如果回归包含常数项,则 Rc2 必须在 0 和 1 之间。然而,如果回归不包含常数项,则 Rc2 可能为负(为负值则代表着模型的拟合优度效果甚至不如直接用均值来预测)。

    The Classical Regression Assumptions

    统计推断需要对解释变量 xt 和总体残差 ut 的性质做出假设。最简单的分析情形如下。

    假设 8.1: (a) xt 是确定性变量的向量(例如,xt 可能包含常数项和 t 的确定性函数); (b) ut 独立同分布,均值为 0,方差为 σ2 (c) ut 服从高斯分布。

    为了突出每个假设的作用,我们首先单独讨论假设 8.1 中 (a) 和 (b) 的含义,然后说明由 (c) 带来的额外含义。

    Properties of the Estimated OLS Coefficient Vector Under Assumption 8.1(a) and (b)

    假设 8.1(b) 的向量形式可以写为 E(u)=0E(uu)=σ2IT

    对式 [8.1.12] 取期望并利用这些条件,可以证明 b 是无偏的:

    (8.1.15)E(b)=β+(XX)1X[E(u)]=β,

    其方差-协方差矩阵为

    E[(bβ)(bβ)]=E[(XX)1XuuX(XX)1](8.1.16)=(XX)1X[E(uu)]X(XX)1(由假设 8.1 的 (a) 可以保证,X)=σ2(XX)1XX(XX)1=σ2(XX)1.

    OLS 系数估计量 b 是无偏的,且由式 [8.1.6] 可以看出是 y 的线性函数。高斯-马尔可夫定理(Gauss-Markov theorem)指出:对于 β 的任意其他估计量,如果该估计量也是无偏的且是 y 的线性函数,则其方差-协方差矩阵与 b 的方差-协方差矩阵的差是一个半正定矩阵。这意味着,基于 bβ 的任意线性组合进行推断,其方差小于基于任何其他线性无偏估计量的相应推断。因此,高斯-马尔可夫定理确立了 OLS 估计量在某一有限类中的最优性

    Properties of the Estimated Coefficient Vector Under Assumption 8.1(a) Through (c)

    u 服从高斯分布时,由式 [8.1.12] 可知 b 也服从高斯分布。因此,前面的结果意味着

    (8.1.17)bN(β,σ2(XX)1).

    可以进一步证明,在假设 8.1 的 (a) 到 (c) 条件下,β 的任意无偏估计量都不比 OLS 估计量 b 更有效。因此,在高斯残差的情况下,OLS 估计量是最优的。

    Properties of Estimated Residual Variance Under Assumption 8.1(a) and (b)

    扰动项方差 σ2 的 OLS 估计为

    (8.1.18)s2=RSS/(Tk)=u^u^/(Tk)=uMXMXu/(Tk),

    其中 MX 为式 [8.1.8] 中的矩阵。由于 MX 是对称且幂等的,式 [8.1.18] 可写为

    (8.1.19)s2=uMXu/(Tk).

    由于 MX 是对称的,存在一个 (T×T) 正交矩阵 P 使得

    (8.1.20)MX=PΛP

    (8.1.21)PP=IT,

    其中 Λ 是一个 (T×T) 矩阵,其主对角线上为 MX 的特征值,其余位置为零。

    我们来详细分析一下矩阵 MX 的特征值。

    1. 首先,若由式 [8.1.9] 可知,若 vXk 个列向量之一,则 MXv=0。假设 X 的列线性无关,则 Xk 个列向量代表 MXk 个不同的特征向量,每个特征向量对应的特征值均为零,因此 Λ 的主对角线上有 k 个 0 。

    2. 另外,由式 [8.1.8] 可知,对于与 X 的列正交的任意向量 v ,即满足 Xv=0 的向量,有 MXv=[ITX(XX)1X]v=v ;而与 X 正交的向量有多少个是线性无关的呢?

      因为 X 的列空间的维度为 k ,因此它的正交补空间的维度为 Tk ,所有我们可以找到 Tk 个线性无关的这样的向量,从而 Λ 的主对角线上有 Tk 个 1 。

    因此,Λ 的主对角线上有且仅有 k 个零和 (Tk) 个 1。

    由式 [8.1.20] 可得

    uMXu=uPΛPu(8.1.22)=(Pu)Λ(Pu)=wΛw=w12λ1+w22λ2++wT2λT,

    其中

    wPu.

    进一步地,

    E(ww)=E(PuuP)=PE(uu)P=σ2PP=σ2IT.

    因此,w 的元素不相关,均值为零,方差为 σ2。由于 k 个特征值为零,剩余的 Tk 个特征值为 1,式 [8.1.22] 变为

    (8.1.23)uMXu=w12+w22++wTk2.

    此外,每个 wt2 的期望为 σ2,因此

    E(uMXu)=(Tk)σ2,

    由式 [8.1.19] 可知,s2σ2 的无偏估计:

    E(s2)=σ2.

    Properties of Estimated Residual Variance Under Assumption 8.1(a) Through (c)

    ut 服从高斯分布时,wt 也服从高斯分布,且式 [8.1.23] 是 (Tk) 个独立的 N(0,σ2) 变量的平方和。因此由式 [8.1.11],有

    (8.1.24)RSS/σ2=uMXu/σ2χ2(Tk).

    同样可以证明,在假设 8.1 的 (a) 到 (c) 条件下,σ2 的任意其他无偏估计量的方差都不小于 s2

    另外,由式 [8.1.11] 和 [8.1.12] 可知,bu^ 不相关:

    E[u^(bβ)]=E[MXuuX(XX)1](8.1.25)=σ2MXX(XX)1=0.

    在假设 8.1 的 (a) 到 (c) 条件下,bu^ 都服从高斯分布,因此不相关意味着它们相互独立。这意味着 bs2 相互独立。

    t Tests About β Under Assumption 8.1(a) Through (c)

    假设我们想要检验原假设:β 的第 i 个元素 βi 等于某个特定值 βi0。检验该原假设的 OLS t 统计量为

    (8.1.26)t=(biβi0)σ^bi=(biβi0)s(ξii)1/2,

    其中 ξii 表示 (XX)1 的第 i 行第 i 列元素,σ^bis2ξii 是第 i 个系数 OLS 估计的标准差。只要 xt 是确定性的且 ut 是独立同分布的高斯分布,式 [8.1.26] 中的量就精确服从自由度为 Tkt 分布。

    为了验证这一结论,注意到在原假设下,由式 [8.1.17] 可知 biN(βi0,σ2ξii),这意味着 (biβi0)/σ2ξiiN(0,1)。因此,如果将式 [8.1.26] 写为

    t=(biβi0)/σ2ξiis2/σ2,

    则分子是 N(0,1),而由式 [8.1.24] 可知分母是 χ2(Tk) 变量除以其自由度后的平方根。由式 [8.1.25] 可知,分子和分母相互独立,这证实了式 [8.1.26] 精确服从 t 分布。

    F Tests About β Under Assumption 8.1(a) Through (c)

    更一般地,假设我们想要对 βm 个不同的线性约束进行联合检验,表示为

    (8.1.27)H0:Rβ=r.

    这里 R 是一个已知的 (m×k) 矩阵,r 是一个已知的 (m×1) 向量,表示我们想要检验假设的 β 的特定线性组合。

    例子 8.1 :要表示之前使用的简单假设 βi=βi0,我们有 m=1R 是一个 (1×k) 向量,第 i 个位置为 1,其余位置为零,r 是标量 βi0

    例子 8.2 :考虑一个包含 k=4 个解释变量的回归,以及联合假设 β1+β2=1β3=β4。在这种情况下,m=2

    (8.1.28)R=[11000011]r=[10].

    由式 [8.1.17] 可知,在 H0 下,

    (8.1.29)RbN(r,σ2R(XX)1R).

    H0 的 Wald 检验基于以下结果。

    Important

    命题 8.1:(n×1) 向量 zN(0,Ω),其中 Ω 非奇异,则 zΩ1zχ2(n)

    证明: 对于标量情形 (n=1),注意到如果 zN(0,σ2),则 (z/σ)N(0,1)z2/σ2χ2(1),正如命题所断言。

    为了验证命题 8.1 的向量情形,由于 Ω 是对称的,存在矩阵 P(如式 [8.1.20] 和 [8.1.21]),使得 Ω=PΛPPP=In,其中 Λ 包含 Ω 的特征值。由于 Ω 是正定的,Λ 的对角元素为正。则

    zΩ1z=z(PΛP)1z=z[P]1Λ1P1z(8.1.30)=[P1z]Λ1P1z=wΛ1w=i=1nwi2/λi,

    其中 wP1z。注意到 w 服从高斯分布,均值为零,方差为

    E(ww)=E(P1zz[P]1)=P1Ω[P]1=P1PΛP[P]1=Λ.

    因此,式 [8.1.30] 是 n 个独立正态变量的平方和,每个变量除以其方差 λi。因此,它服从 χ2(n) 分布,证毕。

     

    将命题 8.1 直接应用于式 [8.1.29],在 H0 下:

    (8.1.31)(Rbr)[σ2R(XX)1R]1(Rbr)χ2(m).

    用估计量 s2 替换 σ2 并除以约束数量,得到线性假设的 OLS F 检验的 Wald 形式:

    (8.1.32)F=(Rbr)[s2R(XX)1R]1(Rbr)/m.

    注意到式 [8.1.32] 可以写为

    F=(Rbr)[σ2R(XX)1R]1(Rbr)/m[RSS/(Tk)]/σ2.

    分子是 χ2(m) 变量除以其自由度,而分母是 χ2(Tk) 变量除以其自由度。同样,由于 bu^ 相互独立,分子和分母相互独立。因此,当 xt 是非随机的且 ut 是独立同分布的高斯分布时,在 H0 下,式 [8.1.32] 精确服从 F(m,Tk) 分布。

    注意到简单假设 βi=βi0t 检验是通用公式 [8.1.32] 的特殊情况,此时

    (8.1.33)F=(biβi0)[s2ξii]1(biβi0).

    这是式 [8.1.26] 中 t​ 统计量的平方。

    A Convenient Alternative Experssion for the F Test

    在线性约束条件 [8.1.27] 下估计模型 [8.1.1] 通常是直接的。这意味着当需要对回归系数施加特定线性约束时,可以通过对原变量做适当的线性变换,再用普通最小二乘法(OLS)回归,就能直接得到满足约束条件的系数估计值。

    对于例子 8.1 ,要对 β 的第一个元素施加约束 β1=β10,我们可以简单地对 ytβ10x1t 关于 x2t,x3t,,xkt 进行最小二乘回归。得到的估计量 b2,b3,,bk 最小化 t=1T[(ytβ10x1t)b2x2tb3x3tbkxkt]2,从而在约束 β1=β10 下最小化残差平方和 RSS [8.1.2]。

    对于例子 8.2 ,要施加式 [8.1.28] 中的约束,我们可以对 ytx2t 关于 (x1tx2t)(x3t+x4t) 进行回归:

    ytx2t=β1(x1tx2t)+β3(x3t+x4t)+ut,yt=β1x1t+(1β1)x2t+β3x3t+β3x4t+ut.

    对于原模型可以看出来,满足 β1+β2=1β3=β4

    OLS 估计量 b1b3 最小化

    t=1T[(ytx2t)b1(x1tx2t)b3(x3t+x4t)]2(8.1.34)=t=1T[ytb1x1t(1b1)x2tb3x3tb3x4t]2,

    从而在约束 [8.1.28] 下最小化 [8.1.2]。

    当式 [8.1.27] 中的约束可以通过对变换后的变量进行简单的 OLS 回归来施加时,有一种简单的方法可以通过比较约束和无约束回归的残差平方和来计算 F 统计量 [8.1.32],因此我们有下面的命题。

    Important

    命题 8.2:b 表示无约束 OLS 估计 [8.1.6],RSS1 表示使用该估计得到的残差平方和:

    (8.1.35)RSS1=t=1T(ytxtb)2.

    b 表示约束 OLS 估计,RSS0 表示约束 OLS 估计的残差平方和:

    (8.1.36)RSS0=t=1T(ytxtb)2.

    则线性假设的 OLS F 检验的 Wald 形式 [8.1.32] 可以等价地计算为

    (8.1.37)F=(RSS0RSS1)/mRSS1/(Tk).

    证明: 在约束条件 [8.1.27] 下最小化 [8.1.2] 的约束估计 b 可以使用拉格朗日函数(Lagrangean)计算:

    (8.A.1)J=(1/2)t=1T(ytxtβ)2+λ(Rβr).

    这里 λ 表示一个 (m×1) 的拉格朗日乘数向量;λiRβ=r 的第 i 行所表示的约束相关联。项 1/2 是一个归一化常数,用于简化后续表达式。通过将 [8.A.1] 关于 β 的导数设为零来找到约束最小值:

    Jβ=(1/2)t=1T2(ytxtβ)(ytxtβ)β+λR=t=1T(ytβxt)xt+λR=0,

    bt=1Txtxt=t=1TytxtλR.

    取转置,

    [t=1Txtxt]b=t=1TxtytRλ(8.A.2)b=[t=1Txtxt]1[t=1Txtyt][t=1Txtxt]1Rλ=b(XX)1Rλ,

    其中 b 表示无约束 OLS 估计。用 R 左乘 [8.A.2],并且可以注意到 b 满足 Rb=r

    Rbr=R(XX)1Rλ

    (8.A.3)λ=[R(XX)1R]1(Rbr).

    将 [8.A.3] 代入 [8.A.2],

    (8.A.4)bb=(XX)1R[R(XX)1R]1(Rbr).

    由 [8.A.4] 可知

    (bb)(XX)(bb)={(Rbr)[R(XX)1R]1R(XX)1}(XX)×{(XX)1R[R(XX)1R]1(Rbr)}=(Rbr)[R(XX)1R]1[R(XX)1R]×[R(XX)1R]1(Rbr)=(Rbr)[R(XX)1R]1(Rbr).

    因此,式 [8.1.32] 中的量在数值上等于

    F=(bb)XX(bb)/ms2=(bb)XX(bb)/mRSS1/(Tk).

    将此与 [8.1.37] 比较,如果

    (8.A.6)RSS0RSS1=(bb)(XX)(bb).

    则我们就完成了 [8.1.32] 与 [8.1.37] 等价的证明。那么下面我们来验证式 [8.A.6] 。

    现在,注意到

    RSS0=(yXb)(yXb)(8.A.7)=(yXb+XbXb)(yXb+XbXb)=(yXb)(yXb)+(bb)XX(bb),

    其中交叉项消失了,因为由最小二乘性质 [8.1.10] 可知 (yXb)X=0。式 [8.A.7] 表明

    (8.A.8)RSS0=RSS1+(bb)XX(bb),

    这就证明了 [8.A.6],证毕。


    式 [8.1.37] 和 [8.1.32] 将产生完全相同的数值,无论原假设和模型是否有效。

    例子 8.3 :假设样本量为 T=50 个观测值,在包含 k=4 个解释变量的 OLS 回归中,原假设为 β3=β4=0。首先对 yt 关于 x1t,x2t,x3t,x4t 进行回归,将该回归的残差平方和记为 RSS1。然后,仅对 yt 关于 x1tx2t 进行回归,将该约束回归的残差平方和记为 RSS0。如果

    (RSS0RSS1)/2RSS1/(504)

    大于 3.20(F(2,46) 随机变量的 5% 临界值),则应该拒绝原假设。

    8.2 Ordinary Least Squares Under More General Conditions

    前面一节在假设 8.1(xt 是确定性的,ut 是独立同分布的高斯分布)下分析了回归模型 [8.1.1]。我们将该假设称为"情形 1"(case 1)。本节将这一假设推广到时间序列分析中可能出现的更一般的情形。

    Case 2:Error Term i.i.d. Gaussian and Independent of Explanatory Variables

    考虑 X 是随机的但与 u 完全独立的情形。

    Important

    假设 8.2: (a) xt 是随机的,且对所有 t,s 都与 us 独立; (b) uti.i.d. N(0,σ2)

    假设 8.2 可以替换为假设 uXN(0,σ2IT),后续所有结果保持不变。

    在假设 8.2 下,许多关于确定性回归变量的结果仍然适用。例如,对式 [8.1.12] 取期望并利用独立性假设,可得

    (8.2.1)E(b)=β+{E[(XX)1X]}{E(u)}=β,

    这说明 OLS 系数估计量仍然是无偏的。

    对于检验统计量的分布,可以通过两步程序来求得:

    1. 计算给定 X 的条件分布,即像之前的分析那样将 X 视为确定性的。

    2. 将条件分布乘以 X 的密度函数并对 X 积分,得到真正的无条件分布。

    例如,由式 [8.1.17] 可知

    (8.2.2)bXN(β,σ2(XX)1).

    如果将该密度乘以 X 的密度并对 X 积分,结果不再是高斯分布;因此,在假设 8.2 下,b 是非高斯的。

    另一方面,由式 [8.1.24] 可知

    RSSXσ2χ2(Tk).

    但该密度对所有 X 都相同。因此,当我们将 RSSX 的密度乘以 X 的密度并对 X​ 积分时,将得到完全相同的密度。因此,式 [8.1.24] 在假设 8.2 下仍然给出正确的无条件分布。

    Note

    为了理解为什么 [8.2.2] 的无条件分布不是高斯分布,我们需要计算 b 的无条件密度函数。根据全概率公式,无条件密度为:

    f(b)=f(bX)f(X)dX,

    其中 f(bX) 是给定 Xb 的条件密度,f(X)X 的边际密度。

    给定 X 时,b 的条件密度为:

    f(bX)=1(2π)k/2|σ2(XX)1|1/2exp{12(bβ)[σ2(XX)1]1(bβ)}.

    注意到,虽然对于每个固定的 X,条件分布 f(bX) 都是高斯分布,但方差矩阵 σ2(XX)1 依赖于 X 。这意味着:

    1. 不同 X 值对应不同的方差矩阵:当 X 变化时,XX 会变化,从而 (XX)1 也会变化,导致条件分布的方差矩阵不同。

    2. 无条件分布是混合分布:式 [8.2.3] 中的积分实际上是对所有可能的 X 值对应的不同高斯分布进行加权平均(混合),权重由 f(X) 给出。

    3. 混合高斯分布通常不是高斯分布:除非所有混合成分具有相同的方差矩阵,否则混合分布不是高斯分布。由于 σ2(XX)1 依赖于 X,不同的 X 值会产生不同的方差矩阵,因此混合结果不是高斯分布。

    我们来考虑 k=1 的单变量回归情形,此时 b 是标量。设 X=(x1,x2,,xT),则:

    bXN(β,σ2t=1Txt2).

    无条件分布为:

    f(b)=f(bX)f(X)dX=12πσ2/t=1Txt2exp{(bβ)2t=1Txt22σ2}f(X)dX.

    由于 t=1Txt2 在积分中变化,这相当于对不同方差的高斯分布进行混合,结果通常不是高斯分布(除非 t=1Txt2 是常数,但这在 X 是随机的情况下不成立)。

    而对于 RSS 的情况,由式 [8.1.24] 可知 RSSXσ2χ2(Tk),该分布不依赖于 X(对所有 X 都相同)。因此,当对 X 积分时,无条件分布仍然是 σ2χ2(Tk),保持不变。

    对于式 [8.1.26] 和 [8.1.32] 中的 t 统计量和 F 统计量,情况也是如此。给定 X(biβi0)/[σ(ξii)1/2]N(0,1),且 s/σ 是独立的 [1/(Tk)]χ2(Tk) 变量的平方根。因此,给定 X,式 [8.1.26] 中的统计量服从 t(Tk) 分布。由于这对任意 X 都成立,当我们乘以 X 的密度并对 X 积分时,将得到相同的分布。

    Case 3:Error Term i.i.d. Non-Gaussian and Independent of Explanatory Variables

    接下来考虑以下设定。

    Important

    假设 8.3: (a) xt 是随机的,且对所有 t,s 都与 us 独立; (b) ut 是非高斯的,但独立同分布,均值为零,方差为 σ2,且 E(ut4)=μ4< (c) E(xtxt)=Qt,为正定矩阵,且 (1/T)t=1TQtQ,其中 Q 为正定矩阵; (d) 对所有 i,j,l,mtE(xitxjtxltxmt)< (e) (1/T)t=1T(xtxt)pQ

    由于结果 [8.2.1] 仅需要独立性假设,因此在此情形下 b 仍然是无偏的。然而,对于假设检验,s2 以及 tF 统计量的小样本分布不再与总体残差为高斯分布时相同。为了证明常用的 OLS 推断规则,我们需要考虑渐近结果,为此假设 8.3 包含了条件 (c) 到 (e)。

    为了理解这些条件,注意到如果 xt 是协方差平稳的,则 E(xtxt) 不依赖于 t。此时对所有 t 都有 Qt=Q,条件 (e) 仅要求 xt 对二阶矩是遍历的。假设 8.3 也允许更一般的过程,即 E(xtxt) 可能对不同 t 不同,只要 (1/T)t=1TE(xtxt) 的极限可以由 (1/T)t=1T(xtxt) 一致估计。

    Consistency of the OLS Coefficient Estimator

    为了描述渐近结果,我们用 bT 表示 OLS 估计量 [8.1.3],强调它基于样本量为 T 的样本。我们考察 bTT 变大时的行为,首先证明在假设 8.3 下,OLS 系数估计量是一致的,即 bTpβ

    由式 [8.1.12] 可知

    (8.2.3)bTβ=[t=1Txtxt]1[t=1Txtut]=[(1/T)t=1Txtxt]1[(1/T)t=1Txtut].

    考虑式 [8.2.3] 中的第一项。由假设 8.3(e) 和命题 7.1 可知

    (8.2.4)[(1/T)t=1Txtxt]1pQ1.

    注: 这里应用命题 7.1(连续映射定理)的关键在于:矩阵求逆操作 g(A)=A1 是在可逆矩阵集合上的连续函数。具体而言,如果 A 是一个可逆矩阵,则 A1 的每个元素都是 A 的元素的有理函数(由行列式和余子式构成),因此是连续的。由假设 8.3(e) 可知 (1/T)t=1TxtxtpQ,且由假设 8.3(c) 可知 Q 是正定矩阵(因此可逆),故可以应用命题 7.1 得到式 [8.2.4]。

    接下来考虑式 [8.2.3] 中的第二项。注意到 xtut 是鞅差分序列,其方差-协方差矩阵为

    E(xtutxtut)={E(xtxt)}σ2,

    这是有限的。因此,由例子 7.11 (鞅差分序列的样本均值依概率收敛于 0 )可知

    (8.2.5)[(1/T)t=1Txtut]p0.

    将例子 7.2 应用于式 [8.2.3] 到 [8.2.5],

    bTβpQ10=0,

    这证明了 OLS 估计量是一致的。

    Asymptotic Distribution of the OLS Coefficient Estimator

    接下来考虑 b 的渐近分布。由式 [8.2.3] 可知

    (8.2.6)T(bTβ)=[(1/T)t=1Txtxt]1[(1/T)t=1Txtut].

    由式 [8.2.4] 可知第一项依概率收敛到 Q1。第二项是 xtut 的样本均值乘以 T,其中 xtut 是鞅差分序列,方差为 σ2E(xtxt)=σ2Qt,且 (1/T)t=1σ2Qtσ2Q。注意到在假设 8.3 下,我们可以应用命题 7.9:

    (8.2.7)[(1/T)t=1Txtut]LN(0,σ2Q).

    结合式 [8.2.6]、[8.2.4] 和 [8.2.7],由例子 7.5 可知

    (8.2.8)T(bTβ)LN(0,[Q1(σ2Q)Q1])=N(0,σ2Q1).

    也就是说,我们可以认为

    (8.2.9)bTN(β,σ2Q1/T),

    其中符号 表示"近似服从"。回顾假设 8.3(e),在大样本中 Q 应该接近 (1/T)t=1Txtxt。因此 Q1/T 应该接近 [t=1Txtxt]1=(XTXT)1,其中 XT 是式 [8.1.5] 中表示的 (T×k) 矩阵。因此,式 [8.2.9] 可以近似为

    bTN(β,σ2(XTXT)1).

    当然,这与式 [8.1.17] 得到的结果相同,后者假设了高斯扰动项。在非高斯扰动项的情况下,分布不是精确的,但随着样本量的增大,它提供了越来越好的近似。

    Consistency of the Variance Estimate

    接下来考虑方差估计 sT2 的一致性。注意到总体残差平方和可以写为

    (8.2.10)(yTXTβ)(yTXTβ)=(yTXTbT+XTbTXTβ)(yTXTbT+XTbTXTβ)=(yTXTbT)(yTXTbT)+(XTbTXTβ)(XTbTXTβ),

    其中交叉项消失了,因为由 OLS 正交性条件 [8.1.10] 可知

    (yTXTbT)XT(bTβ)=0.

    将式 [8.2.10] 除以 T

    (1/T)(yTXTβ)(yTXTβ)=(1/T)(yTXTbT)(yTXTbT)+(1/T)(bTβ)XTXT(bTβ),

    或者

    (8.2.11)(1/T)(yTXTbT)(yTXTbT)=(1/T)(uTuT)(bTβ)(XTXT/T)(bTβ).

    现在,(1/T)(uTuT)=(1/T)t=1Tut2,其中 {ut2} 是均值为 σ2 的独立同分布序列。因此,由大数定律,

    (1/T)(uTuT)pσ2.

    对于式 [8.2.11] 中的第二项,我们有 (XTXT/T)pQ(bTβ)p0,因此由命题 7.1 可知

    (bTβ)(XTXT/T)(bTβ)p0Q0=0.

    将这些结果代入式 [8.2.11],

    (8.2.12)(1/T)(yTXTbT)(yTXTbT)pσ2.

    现在,式 [8.2.12] 描述了一个方差估计量,我们将其记为 σ^T2

    (8.2.13)σ^T2(1/T)(yTXTbT)(yTXTbT).

    式 [8.1.18] 中给出的 OLS 估计量

    (8.2.14)sT2=[1/(Tk)](yTXTbT)(yTXTbT)

    σ^T2 相差一个在 T 时消失的项,

    sT2=aTσ^T2,

    其中 aT[T/(Tk)],且 limTaT=1。因此,由命题 7.1 可知

    plim sT2=1σ2,

    这证明了 sT2 的一致性。

    Asymptotic Distribution of the Variance Estimate

    为了求 sT2 的渐近分布,首先考虑 T(σ^T2σ2)。由式 [8.2.11] 可知,这等于

    (8.2.15)T(σ^T2σ2)=(1/T)(uTuT)Tσ2T(bTβ)(XTXT/T)(bTβ).

    但是

    (1/T)(uTuT)Tσ2=(1/T)t=1T(ut2σ2),

    其中 {ut2σ2} 是均值为零、方差为 E(ut2σ2)2=E(ut4)2σ2E(ut2)+σ4=μ4σ4 的独立同分布变量序列。因此,由中心极限定理,

    (8.2.16)(1/T)(uTuT)Tσ2LN(0,(μ4σ4)).

    对于式 [8.2.15] 中的最后一项,我们有 T(bTβ)LN(0,σ2Q1)(XTXT/T)pQ,且 (bTβ)p0。因此,

    (8.2.17)T(bTβ)(XTXT/T)(bTβ)p0.

    将式 [8.2.16] 和 [8.2.17] 代入式 [8.2.15],我们得到

    (8.2.18)T(σ^T2σ2)LN(0,(μ4σ4)).

    为了说明 sT2 具有相同的极限分布,注意到

    T(sT2σ2)T(σ^T2σ2)=T{[T/(Tk)]σ^T2σ^T2}=[(kT)/(Tk)]σ^T2.

    但是 limT[(kT)/(Tk)]=0,这证明了

    T(sT2σ2)T(σ^T2σ2)p0σ2=0,

    因此,由命题 7.3(a) 可知

    (8.2.19)T(sT2σ2)LN(0,(μ4σ4)).

    注意到,如果我们仅依赖渐近理论来使用检验统计量,理论无法指导我们在 s2σ^2 之间选择哪个作为 σ2 的估计量,因为它们具有相同的极限分布。

    Asymptotic Distribution of the t Test

    接下来考虑原假设 βi=βi0 的 OLS t 检验的渐近分布,

    (8.2.20)tT=(biTβi0)sTξTii=T(biTβi0)sTTξTii,

    其中 ξTii 表示 (XTXT)1 的第 i 行第 i 列元素。我们已经看到 T(bi,Tβ0)LN(0,σ2qii),其中 qii 表示 Q1 的第 i 行第 i 列元素。类似地,TξTii(XTXT/T)1 的第 i 行第 i 列元素,依概率收敛到 qii。另外,sTpσ。因此,t 统计量 [8.2.20] 的极限分布与 N(0,σ2qii) 变量除以 σ2qii 相同;即

    (8.2.21)tTLN(0,1).

    现在,在假设 8.2 的更严格条件下,我们看到 tT 将具有自由度为 (Tk)t 分布。回顾一下,自由度为 Nt 变量具有 N(0,1) 变量与独立的 χ2(N) 变量除以 N 后的平方根之比的分布。而 χ2(N) 变量又是 N 个独立的 N(0,1) 变量的平方和。

    因此,设 Z 表示 N(0,1) 变量,自由度为 Nt 变量具有与下式相同的分布:

    tN=Z{(Z12+Z22++ZN2)/N}1/2.

    由大数定律,

    (Z12+Z22++ZN2)/NpE(Zt2)=1,

    因此 tNLN(0,1)。因此,当 N 变大时,自由度为 Nt 变量的临界值将任意接近 N(0,1) 变量的临界值。即使在假设 8.3 下,式 [8.2.20] 中计算的统计量不具有精确的 t(Tk) 分布,如果我们将其视为具有该分布,那么当样本足够大时,也不会偏离太远。

    Asymptotic Distribution of the F Test

    对于式 [8.1.32] 中 m 个不同约束的 F 检验,情况也是如此:

    (8.2.22)FT=(RbTr)[sT2R(XTXT)1R]1(RbTr)/m=T(RbTr)[sT2R(XTXT/T)1R]1T(RbTr)/m.

    这里 sT2pσ2XTXT/TpQ,且在原假设下,

    T(RbTr)=[RT(bTβ)]LN(0,σ2RQ1R).

    因此,在原假设下,

    mFTL[RT(bTβ)][σ2RQ1R]1[RT(bTβ)].

    这是命题 8.1 描述的正态向量的二次型,因此

    mFTLχ2(m).

    因此,渐近推断可以基于以下近似:

    (8.2.23)(RbTr)[sT2R(XTXT)1R]1(RbTr)χ2(m).

    这被称为 OLS χ2 检验的 Wald 形式。

    t 和极限正态分布的情况一样,将式 [8.2.23] 视为 χ2(m) 和将式 [8.2.22] 视为 F(m,Tk) 在渐近意义上是相同的检验。回顾一下,F(m,N) 变量是 χ2(m) 变量与独立的 χ2(N) 变量之比,每个都除以其自由度。因此,如果 Zi 表示 N(0,1) 变量,X 表示 χ2(m) 变量,

    Fm,N=X/m(Z12+Z22++ZN2)/N.

    对于分母,

    (Z12+Z22++ZN2)/NpE(Zt2)=1,

    这意味着

    Fm,NLNX/m.

    因此,对于足够大的 T,将式 [8.2.23] 与 χ2(m) 临界值比较或将式 [8.2.22] 与 F(m,Tk) 临界值比较将导致相同的检验。

    对于给定样本量为 T 的样本,小样本分布(tF 分布)意味着比大样本分布(正态或 χ2 分布)更宽的置信区间。即使使用 tF 分布的理由仅是渐近的,许多研究者仍倾向于使用 tF 表而不是正态或 χ2 表,理由是前者更保守,可能更好地近似真实的小样本分布。

    Wald Test for Nonlinear Restrictions

    如果我们仅依赖渐近分布,Wald 检验统计量 [8.2.23] 可以推广到允许对 β 的非线性约束集进行检验。考虑由 m 个独立的非线性约束组成的原假设,形式为 g(β)=0,其中 g:RkRmg() 具有连续的一阶导数。结果 [8.2.8] 和命题 7.4 意味着

    T[g(bT)g(β0)]L[gβ|β=β0]z,

    其中 zN(0,σ2Q1),且

    gβ|β=β0

    表示 g() 关于 β(m×k) 导数矩阵,在真实值 β0 处计算。在原假设 g(β0)=0 下,由命题 8.1 可知

    {Tg(bT)}{[gβ|β=β0]σ2Q1[gβ|β=β0]}1{Tg(bT)}Lχ2(m).

    回顾 Q(1/T)(XTXT) 的概率极限。由于 g/β 是连续的,且 bTpβ0,由命题 7.1 可知

    [gβ|β=bT]p[gβ|β=β0].

    因此,形式为 g(β)=0 的关于 βm 个非线性约束集可以用以下统计量进行检验:

    {g(bT)}{[gβ|β=bT]sT2(XTXT)1[gβ|β=bT]}1{g(bT)}Lχ2(m).

    注意到,通过设置 g(β)=Rβr,线性约束的 Wald 检验 [8.2.23] 可以作为这个更一般公式的特殊情况得到。

    非线性约束的 Wald 检验的一个缺点是,根据约束 g(β)=0 的参数化方式,可能得到不同的答案。例如,假设 β1=β2β1/β2=1 是等价的,在渐近意义上,基于任一参数化的 Wald 检验应该给出相同的答案。然而,在特定的有限样本中,答案可能非常不同。实际上,非线性 Wald 检验通过线性约束

    g(β0)+[gβ|β=β0](bTβ0)=0

    来近似约束 g(bT)=0。必须注意确保这种线性化在 β 的合理值范围内是合理的。参见 Gregory and Veall (1985)、Lafontaine and White (1986) 以及 Phillips and Park (1988) 的进一步讨论。

    Case 4:Estimating Parameters for an Autoregression

    现在考虑通过 OLS 估计 p 阶自回归的参数。

    Important

    假设 8.4: 回归模型为

    (8.2.24)yt=c+ϕ1yt1+ϕ2yt2++ϕpytp+εt,

    其中 (1ϕ1zϕ2z2ϕpzp)=0 的根在单位圆外,且 {εt} 是均值为零、方差为 σ2、四阶矩 μ4 有限的独立同分布序列。

    自回归具有标准回归模型 yt=xtβ+ut 的形式,其中 xt=(1,yt1,yt2,,ytp)ut=εt。然而,需要注意的是,自回归不能满足假设 8.2 或 8.3 的条件 (a)。即使在假设 8.4 下 utxt 独立,ut 也不会与 xt+1 独立。没有这种独立性,Case 1 的小样本结果都不适用。具体来说,即使 εt 是高斯的,OLS 系数 b 对自回归给出的是 β 的有偏估计,标准的 tF 统计量只能在渐近意义上得到证明。

    然而,情形 4 的渐近结果与情形 3 相同,且推导方式基本相同。为了适应之前的记号,假设样本由 ytT+p 个观测值组成,编号为 (yp+1,yp+2,,y0,y1,,yT);OLS 估计将使用观测值 1 到 T。那么,与式 [8.2.6] 类似,

    (8.2.25)T(bTβ)=[(1/T)t=1Txtxt]1[(1/T)t=1Txtut].

    式 [8.2.25] 中的第一项是

    [(1/T)t=1Txtxt]1=[1T1yt1T1yt2T1ytpT1yt1T1yt12T1yt1yt2T1yt1ytpT1yt2T1yt2yt1T1yt22T1yt2ytpT1ytpT1ytpyt1T1ytpyt2T1ytp2]1,

    其中 表示对 t=1T 求和。第一行或第一列的元素形式为 T1ytj,由命题 7.5 可知依概率收敛到 μ=E(yt)。其他元素形式为 T1ytiytj,由式 [7.2.14] 可知依概率收敛到

    E(ytiytj)=γ|ij|+μ2.

    因此

    (8.2.26)[(1/T)t=1Txtxt]1pQ1,

    其中

    (8.2.27)Q[1μμμμγ0+μ2γ1+μ2γp1+μ2μγ1+μ2γ0+μ2γp2+μ2μγp1+μ2γp2+μ2γ0+μ2].

    对于式 [8.2.25] 中的第二项,注意到 xtut 是鞅差分序列,其正定方差-协方差矩阵为

    E(xtututxt)=E(ut2)E(xtxt)=σ2Q.

    使用与例子 7.15 类似的论证,可以证明

    (8.2.28)[(1/T)t=1Txtut]LN(0,σ2Q).

    将式 [8.2.26] 和 [8.2.28] 代入式 [8.2.25],

    (8.2.29)T(bTβ)LN(0,σ2Q1).

    进一步可以验证,在此情形下 bTsT2 是一致的。由式 [8.2.26],T(bTβ) 的渐近方差-协方差矩阵可以由 sT2(XTXT/T)1 一致估计,这意味着将 bT 视为 N(β,sT2(XTXT)1) 的标准 tF 统计量将对自回归系数的假设检验产生渐近有效的检验结果。

    作为式 [8.2.29] 的特殊情况,考虑一阶自回归的 OLS 估计,

    yt=ϕyt1+εt,

    其中 |ϕ|<1。此时 Q 是标量 E(yt12)=γ0,即 AR(1) 过程的方差。我们在 Chapter 3 看到,这由 σ2/(1ϕ2) 给出。因此,对于 OLS 系数 ϕ^

    ϕ^T=t=1Tyt1ytt=1Tyt12,

    结果 [8.2.29] 意味着

    (8.2.30)T(ϕ^Tϕ)LN(0,σ2[σ2/(1ϕ2)]1)=N(0,1ϕ2).

    对于一阶自回归的情况,从这样的计算中已知 ϕ^T 在小样本中是向下有偏的,且当 ϕ 接近 1 时偏倚变得更加严重。例如,对于由式 [8.2.24] 生成的样本量为 T=25 的样本,其中 p=1,c=0,且 ϕ=1,基于式 [8.2.24] 的 OLS 估计(包含常数项)的估计量 ϕ^T 在 95% 的样本中将小于真实值 1,甚至在 10% 的样本中将降至 0.6 以下。

    至此,我们已经讨论了四种情形,现在我们可以将这四种情形的结果用一个表格表示出来:

    截屏2026-01-18 10.41.56

    Case 5:Errors Gaussian with Known Variance-Covariance Matrix

    接下来考虑第五种情形。

    Important

    假设 8.5: (a) xt 是随机的; (b) 给定完整矩阵 X,向量 uN(0,σ2V) (c) V 是已知的正定矩阵(positive definite matrix)。

    当不同时期的误差具有不同方差但彼此不相关时(即 V 是对角矩阵),则称误差表现出异方差性(heteroskedasticity)。当 V 不是对角矩阵时,则称误差是自相关的(autocorrelated)。

    将方差-协方差矩阵写成某个标量 σ2 与矩阵 V 的乘积是一种约定,这将有助于简化某些异方差和自相关例子的代数运算和解释。

    再次注意,假设 8.5(b) 不能用于自回归,因为给定 xt+1=(1,yt,yt1,,ytp+1)xtut 的值是确定的。

    由式 [8.1.12] 可知

    (bβ)=(XX)1Xu.

    已知 X 取条件期望,

    E[(bβ)X]=(XX)1XE(u)=0,

    并且由重期望公式有

    E(bβ)=EX{E[(bβ)X]}=0.

    因此,OLS 系数估计量是无偏的。

    给定 X 时,b 的方差为

    (8.2.31)E{[(bβ)(bβ)]X}=E{[(XX)1XuuX(XX)1]X}=σ2(XX)1XVX(XX)1.

    因此,给定 X

    bXN(β,σ2(XX)1XVX(XX)1).

    除非 V=IT,否则这与式 [8.1.17] 中的方差矩阵不同,因此 OLS t 统计量 [8.1.26] 不具有高斯变量除以其标准差估计值的解释。因此,式 [8.1.26] 在小样本中不具有 t(Tk) 分布,甚至在渐近意义上也不是 N(0,1)。对于情形 5,检验假设 βi=βi0 的有效检验不应基于式 [8.1.26],而应基于

    (8.2.32)t=(biβi0)sdii,

    其中 dii 表示 (XX)1XVX(XX)1 的第 i 行第 i 列元素。该统计量在渐近意义上是 N(0,1)

    虽然可以基于式 [8.2.32] 进行推断,但在 V 已知的情况下,在后面我们将描述一个更优的估计量和检验程序。然而,首先我们考虑 V​ 形式未知的更一般情形。

    Case 6:Errors Serially Uncorrelated but with General Heteroskedasticity

    本情形假设误差项不序列相关(serially uncorrelated),但允许存在一般形式的异方差(heteroskedasticity),并且我们并不对异方差的具体结构做参数化设定。

    Important

    假设 8.6: (a) xt 是随机的(允许包含 y 的滞后项等); (b) xtut 是一个鞅差分序列; (c) E(ut2xtxt)=Ωt,其中 Ωt 为正定矩阵,并且 (1/T)t=1TΩt 收敛到某个正定矩阵 Ω,且

    (1/T)t=1Tut2xtxtpΩ;

    (d) 对所有 i,j,l,mt,有 E(ut4xitxjtxltxmt)< (e) 对所有 i,j(1/T)t=1Tutxitxtxt(1/T)t=1Txitxjtxtxt 的概率极限存在且有限,并且

    (1/T)t=1TxtxtpQ,

    其中 Q 为非奇异矩阵。

    假设 8.6(b) 的直观含义是:误差项 ut 与其自身滞后项、以及 x 的当前与滞后项在适当的信息集下“不可预测”,从而可将 xtut 当作鞅差分来使用相应的极限定理。尽管误差被假定为不序列相关,假设 8.6(c) 仍允许非常一般的(条件)异方差形式。

    举一个简单例子:假设回归中只有一个 i.i.d. 解释变量 xt,且 E(xt2)=μ2E(xt4)=μ4。若条件方差为 E(ut2xt)=a+bxt2,则

    E(ut2xt2)=Ex[E(ut2xt)xt2]=Ex[(a+bxt2)xt2]=aμ2+bμ4.

    因此在该例中 Ωtt 无关。更一般地,允许 Ωtt 变化,只要其时间平均收敛即可;假设 8.6(d)(e) 则提供了高阶矩与样本矩收敛所需的条件。

    在假设 8.6 下,bT 的一致性可以沿用情形 3 的论证。其渐近方差来自恒等式

    T(bTβ)=[(1/T)t=1Txtxt]1[(1/T)t=1Txtut].

    由假设 8.6(e),有

    [(1/T)t=1Txtxt]1pQ1.

    同时,由鞅差分序列的中心极限定理(对应 Chapter 7 的结果)可得

    [(1/T)t=1Txtut]LN(0,Ω).

    因此 OLS 的渐近分布为

    (8.2.33)T(bTβ)LN(0,Q1ΩQ1).

    White(1980)的核心想法是:用残差构造对 Ω 的一致估计,从而得到对渐近方差矩阵的“一致(稳健)估计”。

    u^t 表示 OLS 残差(见 [8.1.4]),并定义 Q^T=(1/T)t=1Txtxt Ω^T=(1/T)t=1Tu^t2xtxt

    Important

    命题 8.3: 在满足假设 8.6 的一般异方差情形下,OLS 系数向量的渐近方差-协方差矩阵可以被如下量一致估计:

    (8.2.34)Q^T1Ω^TQ^T1pQ1ΩQ1.

    结合 [8.2.33],可以将 bT 近似视为

    bTN(β,V^T/T),

    其中

    V^T=Q^T1Ω^TQ^T1

    并且可写为回归矩阵的形式

    (8.2.35)V^T=(XTXT/T)1[(1/T)t=1Tu^t2xtxt](XTXT/T)1=T(XTXT)1[t=1Tu^t2xtxt](XTXT)1.

    此时,(V^T/T) 的第 i 个对角元开方(即 (V^T/T)ii)称为 OLS 估计量 bi 的异方差稳健标准差(heteroskedasticity-consistent standard error)。

    同样可以用该稳健方差矩阵做联合假设检验。对原假设 Rβ=rRm×k 矩阵)构造 Wald 统计量

    (8.2.36)(RbTr)[R(V^T/T)R]1(RbTr).

    由 [8.2.33] 可知它是一个(渐近)正态向量的二次型,从而 [8.2.36] 渐近服从自由度为 mχ2 分布。

    最后,还可以构造同时对异方差 + 自相关都稳健的渐近方差估计(HAC)。Newey-West(1987)提出:

    (V^T/T):=(XTXT)1[t=1Tu^t2xtxt+ν=1q(1νq+1)t=ν+1T(xtu^tu^tνxtν+xtνu^tνu^txt)](XTXT)1.

    其中 q 表示用于刻画 ut 动态结构的截断滞后阶数(truncation lag),权重 (1νq+1) 是 Bartlett window。该矩阵对角元开方得到的标准误称为 Newey-West(1987)标准差。其推导基础与其它 HAC 计算方法将在 Chapter 10 讨论。

    8.3 Generalized Least Squares

    前面我们在多种假设下讨论了 OLS,其中包括 E(uu)σ2IT 的情形。尽管在这种情形下仍然可以使用 OLS,但通常更偏好使用广义最小二乘(GLS)。

    GLS with Known Covariance Matrix

    在假设 8.5 下,给定 XuXN(0,σ2V),并且现在进一步假设 V 是已知的。由于 V 对称且正定,存在一个可逆矩阵 L 使得

    (8.3.1)V1=LL.

    这意味着我们可以用 L 对模型做一个“白化”(whitening)变换:将误差项变换为

    u~Lu.

    则在给定 X 时,

    (8.3.2)E(u~u~X)=LE(uuX)L=Lσ2VL=σ2IT.

    对基本回归模型 y=Xβ+u 两边同乘 L,得到变换后的回归模型

    (8.3.3)y~=X~β+u~,

    其中

    (8.3.4)y~Ly,X~LX,u~Lu.

    由 [8.3.2] 可知:给定 X 时,变换后的误差满足同方差且无相关(条件方差为 σ2IT),因此变换后的模型 [8.3.3] 在形式上落入前面 Case 2 的框架,相关结论都可以直接套用。

    具体地,对变换后模型进行 OLS,得到估计量

    b~=(X~X~)1X~y~=(XLLX)1XLLy(8.3.5)=(XV1X)1XV1y.

    式 [8.3.5] 就是广义最小二乘(GLS)估计量。在假设 8.5 下,给定 Xb~ 服从高斯分布,其条件方差为 σ2(XV1X)1;并且它是在给定 X 意义下的最小方差无偏估计量(minimum-variance unbiased estimator conditional on X)。

    与 OLS 情形类似,我们可以用变换后的残差定义误差方差的估计量:

    (8.3.6)s~2=[1/(Tk)]t=1T(y~tx~tb~)2.

    在假设 8.5 下,s~2 具有精确分布 [σ2/(Tk)]χ2(Tk)

    进一步,对线性约束原假设 Rβ=r,对应的检验统计量

    (Rb~r)[s~2R(XV1X)1R]1(Rb~r)/m

    在原假设成立时精确服从 F(m,Tk)​ 分布。下面我们将介绍一些例子。

    Heteroskedasticity

    考虑误差项方差与某个解释变量(如 x1t)的平方成比例的情形:

    E(uuX)=σ2[x112000x122000x1T2]=σ2V.

    此时容易验证矩阵

    L=[1/|x11|0001/|x12|0001/|x1T|]

    满足式 [8.3.1] 和 [8.3.2] 的条件。因此,若对 yt/|x1t| 关于 xt/|x1t| 进行 OLS 回归,所有标准 OLS 输出结果都是有效的。

    Autocorrelation

    第二个例子考虑误差项的一阶自相关:

    (8.3.7)ut=ρut1+εt,

    其中 |ρ|<1,且 εt 是方差为 σ2 的高斯白噪声。此时

    (8.3.8)E(uuX)=σ21ρ2[1ρρ2ρT1ρ1ρρT2ρT1ρT2ρT31]=σ2V.

    由式 [5.2.18] 可知矩阵

    (8.3.9)L=[1ρ20000ρ10000ρ100000ρ1]

    满足 [8.3.1]。GLS 估计可以通过对变换后的变量 y~=LyX~=LX​ 进行 OLS 回归得到。

    GLS and Maximum Likelihood Estimation

    在假设 8.5 下,给定 XyXN(Xβ,σ2V)。因此,y 的条件对数似然函数为

    (8.3.10)(T/2)log(2π)(1/2)log|σ2V|(1/2)(yXβ)(σ2V)1(yXβ).

    利用式 [8.3.1] 可以将式 [8.3.10] 中的最后一项改写为

    (1/2)(yXβ)(σ2V)1(yXβ)=[1/(2σ2)](yXβ)(LL)(yXβ)=[1/(2σ2)](LyLXβ)(LyLXβ)(8.3.11)=[1/(2σ2)](y~X~β)(y~X~β).

    类似地,式 [8.3.10] 中的中间项可以按式 [5.2.24] 的方式改写为

    (8.3.12)(1/2)log|σ2V|=(T/2)log(σ2)+log|det(L)|,

    其中 |det(L)| 表示 L 的行列式的绝对值。将式 [8.3.11] 和 [8.3.12] 代入式 [8.3.10],条件对数似然函数可以写成

    (T/2)log(2π)(T/2)log(σ2)+log|det(L)|(8.3.13)[1/(2σ2)](y~X~β)(y~X~β).

    由此可见,通过将 y~ 关于 X~ 进行 OLS 回归即可使对数似然函数关于 β 达到最大,这意味着在假设 8.5 下,GLS 估计量 [8.3.5] 同时也是最大似然估计量

    进一步地,即使误差项 u 不是高斯分布,GLS 估计量 b~ 仍然可能是合理的。具体来说,变换后回归 [8.3.3] 的残差具有均值 0 和方差 σ2IT,因此该回归满足 Gauss-Markov 定理的条件——即使残差不是高斯分布,b~ 仍然在所有 y 的线性无偏估计量类中具有最小方差(在给定 X 的条件下)。因此,最大化式 [8.3.13](即准最大似然估计,quasi-maximum likelihood estimation)即使在非高斯误差的情形下也可能提供有用的估计原则。

    GLS When the Variance Matrix of Residuals Must Be Estimated from the Data

    前面我们一直假设 V 的元素是已知的。更常见的情况是,V 是某个参数形式 V(θ),其中 θ 是需要从数据估计的参数向量。

    例如,对于一阶序列相关如式 [8.3.7],V 是矩阵 [8.3.8],θ 是标量 ρ。再例如,我们可以假设观测 t 的方差依赖于解释变量:

    E(ut2xt)=σ2(1+α1x1t2+α2x2t2),

    此时 θ=(α1,α2)

    我们的任务是从数据中联合估计 θβ。一种方法是使用使式 [8.3.13] 达到最大的 θβ 作为估计量。由于我们总是可以构造式 [8.3.13] 并数值最大化,这种方法的优点是:无论 E(uuX) 是否为简单形式 σ2IT,都可以遵循单一规则。然而,更简单的估计量也可能具有良好性质。

    实际中往往有

    T(XT[VT(θ^T)]1XT)1(XT[VT(θ^T)]1yT)pT(XT[VT(θ0)]1XT)1(XT[VT(θ0)]1yT),

    其中 VT(θ0) 表示误差的真实方差矩阵,θ^Tθ 的任意一致估计量。此外,θ 的一致估计量通常可以通过对 OLS 残差的简单分析得到。因此,通过几次简单的 OLS 和 GLS 回归得到的估计量可以与最大似然估计量具有相同的渐近分布。由于回归比数值最大化更容易实现,通常使用更简单的估计方法。

    Estimation with First-Order Autocorrelation of Regression Residuals and No Lagged Endogenous Variables

    考虑残差遵循 AR(1) 过程 [8.3.7] 的回归,目前我们保持假设:给定 Xu 的均值为 0,方差为 σ2V(ρ);这排除了滞后内生变量,即我们假设 xtuts 不相关。注意到由式 [8.3.9] 可知下三角矩阵的行列式等于主对角线元素的乘积,因此 det(L)=1ρ2。此时对数似然函数 [8.3.13] 为

    (T/2)log(2π)(T/2)log(σ2)+(1/2)log(1ρ2)[(1ρ2)/(2σ2)](y1x1β)2(8.3.14)[1/(2σ2)]t=2T[(ytxtβ)ρ(yt1xt1β)]2.

    一种方法是对 β,ρσ2 数值最大化式 [8.3.14] ,注意到式 [8.3.14] 正是 AR(1) 过程的精确对数似然函数(式 [5.2.9]),只是将 (ytμ) 替换为 (ytxtβ)

    AR(1) 情形类似,如果我们对第一个观测值取条件,最大化条件对数似然函数

    [(T1)/2]log(2π)[(T1)/2]log(σ2)(8.3.15)[1/(2σ2)]t=2T[(ytxtβ)ρ(yt1xt1β)]2,

    可以得到更简单的估计量(具有相同的渐近分布)。

    若已知 ρ,则可以通过将 (ytρyt1) 关于 (xtρxt1) 进行 OLS 回归(t=2,3,,T,记为回归 A)得到使式 [8.3.15] 最大的 β。反之,若已知 β,则可以通过将 (ytxtβ) 关于 (yt1xt1β) 进行 OLS 回归(t=2,3,,T,记为回归 B)得到使式 [8.3.15] 最大的 ρ。因此,我们可以从对 ρ 的初始猜测(通常取 ρ=0)开始,执行回归 A 得到 β 的初始估计。对于 ρ=0β 的初始估计就是 OLS 估计量 b。然后可以将这个 β 的估计用于回归 B 得到 ρ 的更新估计,例如通过将 OLS 残差 u^t=ytxtb 关于其自身滞后值进行回归。新的 ρ 估计可以用于重复这两次回归。在 A 和 B 之间反复迭代称为迭代 Cochrane-Orcutt 方法(iterated Cochrane-Orcutt method),将收敛到式 [8.3.15] 的局部最大值。

    或者,考虑仅从第一次迭代得到的 ρ 的估计:

    (8.3.16)ρ^=(1/T)t=1Tu^t1u^t(1/T)t=1Tu^t12,

    其中 u^t=ytxtbbβ 的 OLS 估计量。为简化表达式,我们已将原始样本的观测数重新标准化为 T+1,记为 y0,y1,,yT,因此条件最大似然估计使用 T 个观测值。

    注意到

    u^t=(ytβxt+βxtbxt)=ut+(βb)xt,

    因此式 [8.3.16] 的分子可以写成

    (1/T)t=1Tu^tu^t1=(1/T)t=1T[ut+(βb)xt][ut1+(βb)xt1]=(1/T)t=1T(utut1)+(βb)(1/T)t=1T(utxt1+ut1xt)(8.3.17)+(βb)[(1/T)t=1Txtxt1](βb).

    只要 bβ 的一致估计量,且有界性条件确保 (1/T)t=1Tutxt1(1/T)t=1Tut1xt(1/T)t=1Txtxt1 的概率极限存在,则有

    (1/T)t=1Tu^tu^t1p(1/T)t=1Tutut1(8.3.18)=(1/T)t=1T(εt+ρut1)ut1pρVar(u).

    类似的分析表明式 [8.3.16] 的分母依概率收敛到 Var(u),因此 ρ^pρ

    式 [8.3.18] 证明了 ρ^ 的一致性(ρ^pρ),接下来,如果 utxss=t1,t,t+1)不相关,则可以做出更强的结论:基于 OLS 残差 u^t 的自回归(式 [8.3.16])得到的 ρ 的估计与基于真实总体残差 ut 得到的 ρ 的估计具有相同的渐近分布。

    假设 plim[(1/T)t=1Tutxt1]=plim[(1/T)t=1Tut1xt]=0,则将式 [8.3.17] 乘以 T 可得

    (1/T)t=1Tu^tu^t1=(1/T)t=1T(utut1)+T(βb)(1/T)t=1T(utxt1+ut1xt)+T(βb)[(1/T)t=1Txtxt1](βb)(8.3.19)p(1/T)t=1T(utut1)+T(βb)0+T(βb)plim[(1/T)t=1Txtxt1]0=(1/T)t=1T(utut1).

    因此,

    (8.3.20)T[(1/T)t=1Tu^t1u^t(1/T)t=1Tu^t12]pT[(1/T)t=1Tut1ut(1/T)t=1Tut12].

    基于总体残差的 ρ 的 OLS 估计的渐近分布由式 [8.2.30] 给出:

    (8.3.21)T[(1/T)t=1Tu^t1u^t(1/T)t=1Tu^t12ρ]LN(0,(1ρ2)).

    结果 [8.3.20] 意味着:基于 β 的任意一致估计量,ρ 的估计量具有相同的渐近分布。如果 Cochrane-Orcutt 迭代在仅计算一次 ρ^ 后就停止,得到的 ρ 的估计量与迭代后续步骤得到的 ρ 的估计量具有相同的渐近分布。

    GLS 估计量 b~ 也有相同的结论如下面的命题所示。

    Important

    命题 8.4: 假设假设 8.5(a) 和 (b) 成立,且 V 由式 [8.3.8] 给出,|ρ|<1。进一步假设对所有 s(1/T)t=1Txtusp0,且 (1/T)t=1Txtxt(1/T)t=1Txtxt1 有有限的概率极限。则基于由式 [8.3.16] 给出的 ρ^ 构造的 V(ρ^) 得到的 GLS 估计量 b~ 与基于真实 ρ 值构造的 V(ρ) 得到的 b~ 具有相同的渐近分布。

    Serial Correlation with Lagged Endogenous Variables

    内生变量(endogenous variable)是与回归误差项 ut 相关的变量。如果回归包含滞后内生变量,前面关于序列相关误差的许多结果不再成立。

    例如,考虑估计

    (8.3.22)yt=βyt1+γxt+ut,

    其中 ut 遵循式 [8.3.7] 中的 AR(1) 过程。由于 (1) utut1 相关,以及 (2) ut1yt1 相关,因此 ut 与解释变量 yt1 相关。相应地,plim[(1/T)t=1Txtut]=0 不再成立,这是 OLS 估计量 b 一致性的关键条件。因此,式 [8.3.16] 中的 ρ^ 不是 ρ 的一致估计量。

    Durbin(1960)提出了一个在存在滞后内生变量时仍然一致的简单 ρ 估计量。将式 [8.3.22] 乘以 (1ρL) 得到

    (8.3.23)yt=(ρ+β)yt1ρβyt2+γxtργxt1+εt.

    这是回归模型

    (8.3.24)yt=α1yt1+α2yt2+α3xt+α4xt1+εt

    的约束版本,其中四个回归系数 (α1,α2,α3,α4) 被约束为三个底层参数 (ρ,β,γ) 的非线性函数。最小化式 [8.3.23] 中 ε 的平方和等价于对前两个观测值取条件的最大似然估计。此外,式 [8.3.24] 中的误差项与解释变量不相关,因此可以通过对式 [8.3.24] 进行 OLS 估计一致地估计 αi。那么 α^4/α^3 提供了 ρ 的一致估计量,即使式 [8.3.24] 中存在滞后内生变量。

    即使获得了一致的 ρβ 估计量,Durbin(1970)强调:在存在滞后内生变量的情况下,基于 (ytxtβ^)ρ 的估计量与基于 (ytxtβ) 的估计量仍然不具有相同的渐近分布。注意到,如果 xt 包含滞后内生变量,则式 [8.3.19] 不再有效。例如,如果 xt 包含 yt1,则 xtut1 相关,且 plim[(1/T)t=1Tut1xt]0,这与推导式 [8.3.19] 时的假设矛盾。因此,当 xt 包含滞后内生变量时,式 [8.3.20] 不再成立。同样,一个通用的有效程序是数值最大化对数似然函数 [8.3.15]。

    Higher-Order Serial Correlation

    接下来考虑给定 Xu 的分布可以由 p 阶自回归描述的情形:

    ut=ρ1ut1+ρ2ut2++ρputp+εt.

    此时给定 X 的对数似然函数为

    (T2)log(2π)(T2)log(σ2)(12)log|Vp|[12σ2](ypXpβ)Vp1(ypXpβ)[12σ2]t=p+1T[(ytxtβ)ρ1(yt1xt1β)(8.3.25)ρ2(yt2xt2β)ρp(ytpxtpβ)]2,

    其中 (p×1) 向量 yp 表示 y 的前 p 个观测值,Xp 是与这前 p 个观测值相关的 (p×k) 解释变量矩阵,σ2Vp(ypXp)(p×p) 方差-协方差矩阵。σ2Vp 的第 i 行第 j 列元素由 γ|ij| 给出,其中 γk 是自回归参数为 ρ1,ρ2,,ρp、新方差为 σ2AR(p) 过程的第 k 个自协方差。

    Lp 表示一个 (p×p) 矩阵,使得 LpLp=Vp1,GLS 可以通过将 y~p=Lpyp 关于 X~p=LpXp 进行回归得到,以及将 y~t=ytρ1yt1ρ2yt2ρpytp 关于 x~t=xtρ1xt1ρ2xt2ρpxtp 进行回归得到(t=p+1,p+2,,T)。式 [8.3.14] 是式 [8.3.25] 在 p=1,Vp=1/(1ρ2)Lp=1ρ2 时的特殊情形。

    如果我们愿意对前 p 个观测值取条件,任务是选择 βρ1,ρ2,,ρp 以最小化

    t=p+1T[(ytxtβ)ρ1(yt1xt1β)ρ2(yt2xt2β)ρp(ytpxtpβ)]2.

    同样,在不存在滞后内生变量的情况下,我们可以像 Cochrane-Orcutt 那样迭代:首先将 ρi 视为给定,将 y~t 关于 x~t 进行回归;然后将 β 视为给定,将 u^t 关于 u^t1,u^t2,,u^tp 进行回归。

    任何协方差平稳的误差过程总可以通过有限自回归来近似,只要近似自回归的阶数 p 足够大。Amemiya(1973)证明:通过让 p 以比样本量 T 更慢的速度趋于无穷,这种迭代 GLS 估计量与 V 已知时的 GLS 估计量具有相同的渐近分布。或者,如果理论暗示误差具有 ARMA(p,q) 结构且 pq 已知,可以通过将 Chapter 5 中的方法适配,将 Chapter 5 表达式中的 μ 替换为 xtβ​,找到精确或近似最大似然估计量。